Проектная работа «Рынок общественного питания в Москве»

В связи с решением открыть небольшое, но оригинальное кафе в Москве, в котором гостей будут обслуживать роботы, мы подготовили исследование текущей ситуации на рынке общественного питания для потенциальных инвесторов, в результате которого постараемся ответить на вопрос: «получится ли у нашего кафе снискать популярность на долгое время, когда все зеваки насмотрятся на роботов-официантов?». В исследовании будем руководствоваться открытыми данными о заведениях общественного питания в Москве.

1.1 Загружаем данные

1.2 Предобработка данных

Пропусков в данных и дубликатов нет, а вот тип поля chain, которое указывает на то, является ли ресторан сетевым или нет, можем заменить с object на boolean.

Теперь, когда тип данных в столбцах таблицы нас устраивает, обратим внимание на значения в столбце object_name — они написаны в разных регистрах, а некоторые названия сетевых кафе имеют неявные дубликаты, например "Милти", "МИЛТИ" "Магазин готовой еды «Милти»" или "Мята Lounge" и "Лаундж-бар Мята Lounge". Поработаем с неявными дубликатами и начнём с названий, написанных заглавными буквами.

Было 10393 вариантов названия заведений общепита, стало 10186 — мы избавились от более, чем 200 дубликатов. Теперь обратимся к сетевым заведениям и удалим скрытые дубликаты в их названиях.

Видно, что уже в этих 50 вариантах есть три неявных дубликата, которые связаны с набором символов, принадлежащих к различным раскладкам (и ещё больше дубликатов, связанных с регистром, а также с добавлением слов вроде слова "кафе"): Subway и Сабвей, Starbucks и Старбакс, Суши Wok и Cуши Вок. Поскольку варианты, написанные с использованием букв латинской раскладки клавиатуры, популярнее — заменим Сабвей на Subway, Cтарбакс на Starbucks, а Cуши Вок на Суши Wok и снова оценим 50 наиболее популярных вариантов.

Subway, Starbucks и Суши Wok поднялись выше в отсортированном списке, значит всё сработало, как нужно. Заметим, что когда частота упоминаний названия заведения общественного питания становится ниже числа 15, начинают встречаться дубликаты, связанные с регистром, в котором написаны названия, а также дубликаты, связанные с добавлением дополнительных слов, вроде слова "Кафе". Создадим список из уникальных названий заведений, в этом списке окажутся те названия, частота упоминаний которых будет не меньше пятнадцати. Это первые 30 записей и ещё одна.

Было 10186 вариантов названия заведений общепита, стало 9914 — мы избавились ещё от почти 300 дубликатов. Продолжим работать с дубликатами в сетевых кафе и обратим внимание на те названия сетевых кафе, которые представлены в единственном экземпляре. Будем считать, что если заведение общественного питания сетевое, то его название должно упоминаться как минимум дважды, а значит названия с единственным упоминанием нуждаются в дополнительном исследовании.

Теперь напишем функцию, которая поможет избавиться от дополнительных уточняющих слов, стоящих в начале. Будем с помощью такой функции оставлять названия, написанные внутри кавычек-ёлочек, удаляя эти кавычки-ёлочки.

В результате работы функции change_chain_names() мы избавились от ещё 63 дубликатов в столбце 'object_name'. Продолжим работу с дубликатами и теперь будем избавляться от слов вроде «Кафе», «Ресторан», «Бар», которые стоят в начале. Также определим слова, наличие которых будет сообщать нам о необходимости замены имеющегося названия на это слово. Для этого создадим три списка: один для наиболее популярных уточняющих слов, другой — для слов-триггеров и ещё один — для значений столбца 'name' таблицы chain_names2.

Мы избавились от 140 дубликатов в названиях сетевых заведений общественного питания. Оставшиееся 121 название можно удалить, руководствуясь принципом "Сетевые заведения — это те заведения, количество которых больше одного".

В результате проведённой работы с дубликатами в столбце 'object_name' мы устранили свыше 700 дублирующих названий у заведений общественного питания, что составляет чуть менее 10% от всех записей таблицы. Будем считать проведённую работу с дубликатами успешной.

2. Анализ данных

2.1 Исследование соотношения видов объектов по количеству

Исследуем соотношение видов объектов общественного питания по количеству.

На графике видно, что наиболее распространённый тип заведений общественного питания в Москве — это кафе: 6028 заведений. На втором по популярности месте с существенным отрывом (2587 заведений) следует тип «столовая» и замыкает тройку лидеров тип «ресторан» с 2245 заведениями. Наименее популярный тип заведений общественного питания — это «магазин (отдел кулинарии)», таких всего 268.

2.2 Исследование соотношения сетевых и несетевых заведений

Теперь исследуем соотношение сетевых и несетевых заведений по количеству, построим новый график.

Несетевых заведений общественного питания в Москве больше, чем сетевых. Разница примерно в 5 раз. Такое соотношение даёт нам больше уверенности в том, что существование небольшого несетевого кафе более чем возможно на рынке московских заведений, ведь таких несетевых заведений большинство.

2.3 Исследование характерности сетевого распространения по виду объектов

Теперь обратим внимание на то, для какого вида объектов общественного питания характерно сетевое распространение.

Абсолютным лидером по сетевому распространению явлются объекты типа «Предприятие быстрого обслуживания» — 41,1% таких предприятий сетевые, показатель для кафе (ведь нас интересует именно кафе) — 22.2%, то есть 77.8% кафе сетевыми не являются. Это хорошие новости для нас. Также заметим, что только десятая доля процента столовых относятся к сетевым, а количество заведений типа «столовая», напомним, находится на втором месте по популярности в соотношении объектов по типу. Вероятно, принцип "Вместе выжить проще" не распространяется на столовые и они не страдают от дефицита клиентов, поэтому лишь 0,1% столовых объединяется в сети, а остальные существуют автономно.

2.4. Что характерно для сетевых заведений?

Теперь попробуем ответить на вопрос: Что характерно для сетевых заведений: много заведений с небольшим числом посадочных мест в каждом или мало заведений с большим количеством посадочных мест? Для ответа на этот вопрос сперва категоризируем заведения по количеству посадочных мест.

Теперь, когда мы категоризировали заведения общественного питания по вместимости, разделив их на две группы "много мест" и "мало мест", категоризируем сетевые заведения по количеству точек в сети. У нас появится две категории: "крупная сеть" и "малая сеть".

Наконец, мы подходим вплотную к вопросу «Что характерно для сетевых заведений: много заведений с небольшим числом посадочных мест в каждом или мало заведений с большим количеством посадочных мест?». Построим графики на основе сводной таблицы

Наиболее характерным признаком сетевых заведений является большое количество заведений с небольшим количеством посадочных мест, однако это не отменяет факта существования заведений с большим количеством мест, количество которых чуть меньше. Характерный признак проявляет себя в основном в заведениях, которые принадлежат к крупным сетям: 54.5 % таких заведений имеют малое число мест. В заведениях, принадлежащих малым сетям, напротив, чаще можно встретить большое количество мест — в 53.4 % случаев. Но поскольку заведений, принадлежащих к крупным сетям значимо больше (почти в 10 раз!), то мы смело можем утверждать, что характерный признак сетевых заведений — небольшое количество посадочных мест в большом количестве сетевых заведений общественного питания.

2.5 Среднее количество посадочных мест для категорий объектов общепита

Опишем среднее количество посадочных мест для каждой категории объекта общественного питания.

В среднем самое большое количество посадочных мест мы видим у заведений, которые принадлежат к категории "малая сеть, много мест" — значение среднего числа мест равно 101. Второй по среднему количеству мест категорией объектов общественного питания является "крупная сеть, много мест". Средние показатели и крупной и малой сетей с малым количеством мест равны 17.

2.6 Создадим столбец с информацией об улице

Выделим в отдельный столбец информацию об улице из столбца address.

2.7 Топ-10 улиц и рейтинг округов

Построим график топ-10 улиц по количеству объектов общественного питания.Также ответим на вопрос — в каких районах Москвы находятся эти улицы. Начнём с построения сводной таблицы

Дубликатов в таблице districts_df 794 — это 18% записей в таблице. Много. Изучим строки с дубликатами.

Мы видим, что дубликаты связаны с тем, что одна улица может находиться в разных округах и районах. Получается, почти 20% улиц в нашей таблице находятся в разных районах. Это важная информация! Далее будем считать, что если улица находится в разных районах, то это прямым образом влияет на популярность каждого из районов при составлении рейтинга. Добавим таблице most_popular_streets ещё два столбца из таблицы districts_df с помощью метода merge()

Итак, самыми популярными районами, в которых расположены улицы, насчитывающие наибольшее число заведений общественного питания, являются ЮАО и ЮЗАО. Будем считать два этих округа наиболее привлекательными для открытия собственного кафе. На графике отсутствуют СЗАО, ВАО и ЮВАО — вероятно, причина в том, что эти районы не так привлекательны. Ещё можно обратить внимание на то, что почти все попавшие в топ улицы объединяет то, что они являются крупными транспортными магистралями: по ним ежедневно перемещается достаточно большое количество людей и эти магистрали чаще всего проходят через ЦАО. Изучим, в каких районах находятся улицы с наименьшим числом заведений общественного питания, чтобы развить это предположение и не рассматривать наименее привлекательные районы для нашего кафе.

2.8 Исследование самых непопулярных улиц для заведений общественного питания

В Москве 650 улиц, на которых расположено всего одно кафе. Попробуем составить репрезентативную выборку: возьмём 30 записей из этих данных и для каждой улицы определим район. Это поможет нам явно определить округ-аутсайдер по привлекательности для открытия кафе.

И со значительным отрывом самым популярным районом, в котором больше всего улиц в одним заведением общественного питания становится ЦАО. Будем считать его, а также ВАО, ЗАО и ЮВАО (они делят второе место) наименее привлекательными районами для открытия кафе. Причина так же может быть связана с тем, что в ЦАО много маленьких улиц и они близко расположены друг к другу, для того, чтобы на них оказывалось большее число заведений общественного питания. ЮЗАО и ЮАО, лидеров прошлого графика, в этом графике не оказалось — это подтверждает наше предположение о том, что южный и юго-западный округа являются привлекательными.

2.9 Распределение числа посадочных мест для ТОП-10 улиц

Теперь обратим внимание на распределение количества посадочных мест для улиц с большим количеством объектов общественного питания и постараемся выявить закономерности.

Видим пик значений распределения в районе числа 20, а также следующее по частоте значение в районе числа 40 с последующим плавным затуханием при увеличении числа мест. Посмотрим, как себя чувствуют медианные значения количества мест для каждой из улиц в ТОП-10. Если мы решим открыть кафе на той или иной улице, то следует учитывать типичные для этой улицы значения.

Основываясь на графике, можно сделать вывод, что заведения общественного питания, которые расположены на проспектах, чаще всего имеют больше посадочных мест, а те, которые стоят возле шоссе — в основном менее вместительны. Учтём и эту особенность.

3. Общий вывод

В результате проведённого исследования мы выяснили, что наиболее распространённым типом заведения общественного питания является кафе, при этом количество несетевых заведений значимо больше, чем сетевых. Самыми многочисленными среди сетевых заведений общественного питания являются заведения типа "предприятие быстрого обслуживания". Для сетевых заведений характерно большое число точек с небольшим числом посадочных мест, что логично, ведь если иметь в виду, что самый популярный тип заведений — "предприятие быстрого обслуживания", то совсем не нужно много мест, когда обслуживание происходит быстро, а ещё фастфуд имеет массу поклонников, поэтому таких заведений действительно много. В среднем самое большое число посадочных мест можно наблюдать в столовых: цены на комплексные обеды привлекают большое количество посетителей и, возможно, по этой причине, столовые практически никогда не оказываются сетевыми, каждая столовая способна к автономному существованию.

Наибольшее число заведений общественного питания находится на улицах ЮВАО и ЮЗАО, а больше всего улиц, имеющих по одному кафе — в центре и в Юго-Восточном округе. Если ситуация с ЦАО объяснима большим количеством маленьких улиц близко расположенных друг к другу, то ЮВАО — явно непривлекательный округ для открытия кафе. В среднем заведения общественного питания имеют около 40 посадочных мест. Эта цифра различна в зависимости от того, где находится заведение: на проспектах значение числа посадочных мест будет выше, а, если заведение расположено у шоссе, то, скорее всего, оно будет обладать меньшим числом мест.

Для открытия кафе можно остановить выбор на Профсоюзной улице — это улица с наибольшим числом заведений общественного питания в одном из двух самых популярных административных округов города Москвы. По количеству заведений её опережает только Проспект Мира, но он находится в СВАО и ЦАО.

4. Презентация

Презентация: https://disk.yandex.ru/i/shJWEhGXTaSkKg